2022-06-27

Introduzione

Rick e Morty è una serie tv americana prodotta per Adult Swim arrivata alla quinta stagione e ancora in produzione. Il genere è il cosmic horror. La serie parla di Rick, nonno di Morty e padre di Beth che ritorna nella famiglia di sua figlia. Passa il suo tempo ad inventare gadget futuristici e a viaggiare in mondi e universi parlalleli prima con suo nipote Morty, e poi con sua nipote Summer.

Caratteristiche

Per effettuare questo studio sono stati recuperati i dialoghi di ogni episodio tramite i sottotitoli in inglese. Utilizzando un pacchetto chiamato subtools questi file sono stati convertiti in un dataset utilizzabile, formato da tutte le battute della serie. Il dataset è formato da 51 episodi.

Frequenza delle parole

Per andare a studiare la frequenza delle parole all’interno delle 5 stagioni di Rick e Morty si utilizza il pacchetto wordcloud2, per andare a creare una rappresentazione delle parole utilizzate maggiormente.

Le parole più usate sono rappresentate con un font del testo più grande, mentre quelle meno presenti sono più piccole. Inoltre se le parole sono al centro del grafico sono maggiormente importanti. Inoltre due parole con una frequenza simile hanno uno stesso colore.

## Read: 51 episodes

Frequenza delle parole

Frequenza delle parole

I due termini maggiormente presenti sono il nome di Rick e di Morty che sostanzialmente sono i protagonisti di ogni episodio. Inoltre in molti episodi esistono più versioni di Morty e di Rick che si nominano a vicenda e questo comporta che ci sia una maggior presenza di questi termini.

Inoltre gli altri termini molto presenti sono le esclamazioni che il nonno di Morty esclama come un intercalare.

Rick

Possiamo notare come per esempio nell’episodio 1x10, si dica molto la parola Rick. Infatti questo episodio nominato “Rick e Summer” parla d una festa organizzata da Rick in cui invita i suoi amici a casa sua.

Possiamo notare come per esempio nell’episodio 3x07, si dica molto la parola Rick. Infatti questo episodio nominato “A Ricklantide” è ambientato nella città dei Rick in cui sono presenti moltissime versioni dello stesso uomo ma di molti universi paralleli.

Summer

Osservando le frequenze del nome Summer, nell’episodio 2x07, Summer chiede aiuto a suo nonno Rick per uccidere un vampiro. Rispetto ad altri episodi il nome di Summer compare di più perchè è ambientato nella scuola che lei frequenta.

Analisi preliminare TOGLIERE?

Come varia il numero di battute di ogni episodio per ogni stagione?

Osservando il grafico si vede che l’andamento del numero di battute per ogni episodio è abbastanza costante. In generale si può osservare che gli ultimi episodi, in alcuni casi, contengono un numero minore di battute.

Distribuzione dei termini NON HA SENSO

Densità dei termini

Quale densità e che distribuzione di frequenza assoluta possiedono i termini che compaiono nelle 5 stagioni?

Il primo grafico rappresenta con quale densità compaiono i termini e vediamo che è un’iperbole in cui pochi termini compaiono molte volte e tanti termini compaiono poco.

Nel secondo grafico verifichiamo la stessa cosa, osservando una grande quantità di punti rappresentanti le parole che hanno una frequenza assoluta molto bassa, e pochi termini, tipo il termine “Rick” e “Morty” che compaiono molto di più.

Bigram analysis

Un bigram è una sequenza di due elementi adiacenti da una stringa di token, che in questo caso sono parole. I bigram sono utilizzabili per andare a studiare la correlazione tra termini e per verificare quali sono le parole che sono maggiormente collegate alle altre.

Bigram analysis

Quali sono i bigram maggiormente presenti?

Bigram analysis

Il grafico è stato diviso per stagione e rappresenta la frequenza assoluta dei 10 bigram maggiormente presenti nei dialoghi.

Si nota che i bigram maggiormente utilizzati, oltre ai nomi quali “Rick Sanchez”, “Hey Rick” e “Grandpa Rick”, sono tutte esclamazioni. Infatti se si osserva la frequenza con cui queste esclamazioni compaiono si vede che nelle ultime stagione è stato fatto un uso maggiore di esclamazioni negative, rispetto a quelle innocue come “yeah yeah”.

Grafo

Rappresentazione grafica della connessione dei termini.

Frequenza bigram in base al tf-idf

I bigram possono essere visti come singoli termini e per ogni termine si può calcolare il tf-idf come misurazione per capire quanto un termine è discriminante di un testo, in questo caso delle stagioni.

Frequenza bigram in base al tf-idf

Dal grafico, diviso per stagioni, si vede che i bigram maggiomente presenti sono quelli che discriminano maggiormente la stagione. Per esempio nella stagione 2 è presente il bigram mini Rick che compare molte volte ma in un singolo episodio e questo lo rende un termine molto importante.

Nelle altre stagione non c’è una grande rilevanza di termini.

Correlazione Pairwise

Oltre a vedere le coppie di termini più frequenti è possibile andare a studiare le parole che possiedono maggior correlazione, perchè compaiono nella stessa situazione ma non sono per forza adiacenti.

Correlazione

Il grafo rappresenta i termini come nodi e lo spessore dell’arco che li collega come relazione tra di essi. I nodi in rosso sono i termini che hanno una frequenza assoluta maggiore all’interno dei dialoghi.

Si può vedere che i 4 termini non hanno una relazione molto elevata con gli altri presenti all’interno del testo.

Misure di Centralità

Che misurazioni ha il grafo?

Numero di nodi:

## [1] 7106

Distanza media tra due nodi:

## [1] 5.46047

Diametro:

## [1] 19

Tabella delle distanze:

##       1       2       3       4       5       6       7       8       9      10 
##   11261  131639  851654 2335463 3181586 2599076 1521197  722363  300790  111702 
##      11      12      13      14      15      16      17      18      19 
##   37307   12151    3766    1042     264      58      13       2       1

Centralità:

## [1] 0.02401172

Misure di Centralità

Quale è la distribuzione della distanza media tra due nodi qualsiasi?

Si può notare che seppur la grandezza della rete sia abbastanza elevata (7109 nodi), in realtà la distanza media tra due nodi qualsiasi è molto contenuta.

Il diametro, cioè la geodesica più lunga è di 19 passi. La centralità di vicinanza ha un valore molto basso, che è dovuto principalmente ai nodi che compaiono singolarmente, magari all’interno di una singola battuta effettuata da un personaggio.

è connessa?

Nel grafo è presente una componente gigante?

Il grafo mostra la componente gigante formata dai bigram collegati tra di essi. Esiste quindi una componente gigante che prende la maggior parte di nodi. Il numero di nodi connessi è:

## [1] 6619

Betweenness centrality

Quali sono le parole che hanno un valore di correlazione maggiore se comparate a tutte le altre parole?

Calcoliamo la centralità betweenness che va a controllare quanto una parola compara in mezzo ad altre. In sostanza va a verificare se il termine appare sulla maggior parte delle geodesiche presenti tra due termini.

##      word   score
## 1      uh 7260.61
## 2    shit 5493.11
## 3   jerry 5372.40
## 4     god 4964.00
## 5  summer 3288.35
## 6    love 1634.61
## 7    fuck 1614.68
## 8    real 1554.31
## 9    beth 1089.54
## 10 family 1074.49

Osservando la tabella dei 10 valori con un grado più elevato, si può notare che alcuni sono nomi, ma altri in realtà sono esclamazioni.

Community detection

Il community detection permette di trovare le divisioni naturali di una rete in un gruppo di vertici connessi, chiamate comunità. Tra queste comunità ci sono pochi archi, mentre ce ne sono un numero maggiore all’interno della comunità.

Osserviamo i termini che secondo la centralità sono maggiormente importanti:

  • uh
  • shit
  • jerry
  • god

Community detection

Possiamo notare che???????????

##Sentiment Analisy

Cerchiamo di effettuare un’analisi sui sentimenti e le emozioni che questa serie tv possono trasmettere a coloro che la guardano.

Sappiamo che gli episodi hanno dei temi non felici, raccontano storie in cui spesso muoiono peronaggi e soprattutto fanno utilizzo di parolacce che comportano negatività.

Per l’analisi utilizzero 3 diverse scale di misura:

  • bing: ha un controllo sui termini booleano che verifica se sono positivi o negativi

  • nrc: permette di riconoscere le emozioni in maniera più dettagliata

  • afinn: permette di dare una valutazione ad ogni termine che va da -5 a 5.

Wordcloud

Quali sono le parole che influenzano in maniera maggiore o minore i sentimenti in questa analisi?

Notiamo che per quanto riguarda le parole negative abbiamo una prevalenza di escalmazioni o di aggettivi positivi come love, whoa e cool.

Per quanto riguarda le parole negativi abbiamo delle parolacce come fucking, shit oppure fuck, che vengono pronunciate per la maggior parte da Rick ma in seguito molto anche da Morty.

Comparison di numeri

Quali sono le emozioni più presenti, e quale è il numero di parole che caratterizzano queste emozioni?

Possiamo notare come in un classificatore binario le parole negative e positive siano più o meno lo stesso numero. Si vede subito che le emozioni più presenti all’interno della serie tv sono la fiduzia, la paura e altre emozioni più negative.

Sentimenti divisi tramite NRC

Quali sono i termini che caratterizzano le emozioni?

Sentimenti divisi tramite NRC

Notiamo come le parolacce e le parole negative tipo “pistola”, “morte”, “uccisione” siano molto presenti. La serie tv è infatti abbastanza violeta e le scene di sparatorie sono molto comuni, come le scene in cui vengono usate delle pistole.

Le parole che influenzano maggiormente il tutto, tramite afinn

Vediamo ora le parole che globalmente danno il più grande contributo sul lato positivo e negativo.

Questo grafico ci conferma ulteriormente che le parolacce rivestono un ruolo molto importante perchè parole come shit, fuck o hell pesano in modo molto alto quando andiamo a fare un resoconto.

Sentiment Analisy - Season

Osservando i singoli episodi delle 5 stagioni, come è l’andamento dei sentimenti?

Osserviamo che l’andamento di tutti gli episodi è negativo. Le parolacce nei dialoghi rendono la serie tv molto negativa.

L’episodio 2x05 è l’unico sommariamente positivo e parla di una gara di canto interplanetaria in cui è presente anche il presidente degli Stati Uniti. La parola “president” oltre alle parole delle canzoni, rendono questo episodio migliore di altri. Seppur nell’episodio certi pianeti vengano distrutti.

L’episodio 3x06 è l’episodio più negativo: parla di un viaggio rilassante alle terme in cui però la parte cattiva di Rick e poi quella di Morty scappano e quella di Morty vuole intossicare il mondo. Rappresenta proprio la negatività.

Pos di tutti gli episodi

Neg di tutti gli episodi

Conclusione

Possiamo concludere che